home *** CD-ROM | disk | FTP | other *** search
/ ftp.cs.arizona.edu / ftp.cs.arizona.edu.tar / ftp.cs.arizona.edu / icon / newsgrp / group95b.txt / 000028_icon-group-sender _Sun May 28 21:23:08 1995.msg < prev    next >
Internet Message Format  |  1995-09-18  |  2KB

  1. Received: by cheltenham.cs.arizona.edu; Mon, 29 May 1995 13:25:48 MST
  2. From: Phil Bralich <bralich@uhunix.uhcc.Hawaii.Edu>
  3. To: icon-group@cs.arizona.edu
  4. Subject: Machine Usable Dictionary
  5. Content-Length: 1694
  6. Message-Id: <95May28.212314hst.97208@uhunix2.uhcc.Hawaii.Edu>
  7. Date:     Sun, 28 May 1995 21:23:08 -1000
  8. Errors-To: icon-group-errors@cs.arizona.edu
  9.  
  10. As you may know from postings I have made to this list over the last
  11. couple of months, Derek Bickerton and I are developing a parser
  12. based on a theory of syntax that he and I have been developing over
  13. the last four years.  We are about to purchase a machine usable
  14. dictionary with approximately 70,000 entries for $2500.  If anyone
  15. could advise us whether or not that is our best bet, or where we might
  16. find other dictionaries, we would appreciate hearing from you.  
  17.  
  18. We are currently working with a dictionary of under 1000 words, so it
  19. is imperative that we obtain a larger one, so we may begin working
  20. with larger corpora.  Toward that end we would also like to find out
  21. which texts were used in past parsing competitions and where the
  22. results of these competitions are published.  We believe that with a
  23. few weeks of work we should be able to modify a dictionary
  24. sufficiently to allow us to begin experinmenting with texts that were
  25. used in past parsing competitions.    
  26.  
  27. Here are the specs the parser.  It is based on a series of algorithms that
  28. have been four years in the making, but the programming required to
  29. create this parser has only taken 300 hours using C++ .  There
  30. areapproximately 3000 lines of code that take up 150k executable on
  31. disk.  About 100k of RAM is required to run the parser.  30k on disk is
  32. required for a 300 word dictionary.   An average sentence takes under
  33. 4 seconds to process on a 486 IBM compatible.  Since this is only a
  34. development version, we expect these numbers to change.  To date, no
  35. optimizations have occurred, and we expect to significantly shrink the
  36. dictionary disk usage and the execution time.  
  37.  
  38. Phil Bralich
  39. bralich@uhccux.uhcc.Hawaii.edu
  40.